FPGA暑期的大动作:赛灵思篇
点击蓝字,关注老石谈芯
世界上的各大顶级体育联赛都有暑期休赛的传统。然而,这并不代表各支球队、各位球员就能轻松的出海钓鱼、享受假期。对于大多数职业球员来说,暑期正是不断训练、提升自己的绝好时机。
作为FPGA领域的主要玩家,英特尔和赛灵思等公司也纷纷在暑期进行了一系列大动作,旨在“新赛季”有更好的表现。老石将逐一总结这些FPGA公司的暑期动作,本文是赛灵思篇。
强强对决:Versal ACAP vs Agilex FPGA
在英特尔向微软等大客户出货Agilex FPGA之前,赛灵思就官宣也向若干大客户正式出货旗舰级“自适应计算平台”Versal ACAP。
(图片来自Xilinx)
在过去的几年中,赛灵思在FPGA的发布时间上基本都远远领先于竞争对手。但有趣的是,这一代旗舰级FPGA的发布,赛灵思的Versal和英特尔Agilex只相差了不到两个月,可以说是几乎同时交付给了各自的EAP客户,时间点的差距已经基本抹平。
Versal的很多技术和架构细节都发表在2019年的FPGA大会上,老石已在之前的文章中进行了详细解读。在路线图方面,Versal有AI、Prime、Premium和HBM四个主要系列,其中Versal AI系列又细分为: AI Edge, AI Core和AI RF三个子类。这次发布的,就是其中的高端系列AI Core,和中端的Prime系列。
和英特尔“百花齐放”式的芯片产品战略不同,赛灵思采取了大一统的方案。作为一个统一的计算平台,Versal ACAP的各个子系列要分别针对不同的应用领域和场景。赛灵思甚至放弃了将其称之为FPGA,而是采用ACAP的全新称谓,有一种不破不立的感觉。
Versal采取了IP级的系统重用和设计。在下图所示的架构图上,每个Versal的子类大都只包含这上面的部分IP、而非全部。比如,Versal HBM预计要等到2021年的下半年才能面世。也就是说,每个Versal系列都需要独自流片生产。
(图片来自Xilinx)
相比之下,Agilex使用的是芯片集(Chiplet)的重用。这主要是依托于英特尔的EMIB技术,使得不同功能和不同工艺的Chiplet(HBM、ARM、收发器等)能够连接到相同的FPGA可编程阵列上。事实上,很多专业分析人士均认为,Agilex的这种架构比Versal这种自适应计算平台有着更好的“自适应性”。
在AI应用方面,Versal的AI Core系列拥有128至400个专用AI引擎,能达到133 TOPS INT8、8 TFLOPS FP32的峰值性能,并支持从INT1到INT16的多种数据位宽。Prime系列则能达到21.3 TOPS INT8和5.0 TFLOPS FP32的性能。对比之下,Agilex能实现92 TOPS INT8,和20 TFLOPS FP32的性能,且能支持硬核处理FP16和bfloat16。
然而,在AI领域,或许赛灵思Versal的主要竞争对手并不只是Agilex,而是英特尔的Nervana(如上篇文章介绍的NNP-T和NNP-I)和Xe GPU系列,甚至还有英伟达的GPU,以及其他很多公司的ASIC方案。ACAP如何在AI领域挑战这些竞争对手,才是赛灵思更该思考的问题。
关于Versal ACAP和Agilex FPGA的更详细技术解读和技术资料,请在“老石谈芯”后台回复“ACAP”或“Agilex”。英特尔Nervana在HotChips2019大会上发表的网络训练和推断芯片NNP-T和NNP-I的完整版幻灯片,也已上传至知识星球“老石谈芯-进阶版”。
大,就是王道
在《FPGA暑期的大动作:英特尔篇》中提过,有线和无线通信是FPGA最主要的应用领域之一。事实上,除此之外,FPGA的另外一个很主要的应用是用来构建ASIC或SoC流片前的硬件仿真或原型验证平台,也就是所谓的emulation或prototyping。
在芯片设计流程中,仿真和验证往往会占据大部分工时,因为流片失败带来的金钱和时间损失都是极其巨大的。大体来说,仿真可以不严格的分为三个阶段:
软件仿真。即使用仿真软件,对RTL模型、综合后的网表、或者带有时序信息的网表进行仿真,并可以通过波形等多种方式进行调试。
硬件仿真,即emulation。它可以简单理解成软件仿真的硬件化。
FPGA原型验证,即prototyping。这可以看成是流片前的最后一道防线,也就是将设计在一个或多个基于FPGA的系统上实现,并和真实的外界软硬件进行交互。
其中,硬件仿真必须要借助专用的emulator,FPGA原型验证也需要专用设备和板卡进行。对于一个大型ASIC或SoC设计来说,往往拥有几十亿甚至几百亿的晶体管数量,这就需要硬件仿真和原型验证平台足够大,以支撑芯片设计本身,还有仿真和验证需要的其他IP和资源等。例如,Synopsys公司的基于FPGA的ZeBu硬仿平台就支持对超过190亿晶体管的芯片设计进行硬件仿真。
为了应对几百亿级别的晶体管数量,这些硬仿和原型验证平台往往都会包含多个FPGA,如下图所示,这是因为在单个FPGA的资源非常有限,远远无法实现这样大型的设计。
一款基于4个FPGA的原型验证卡
然而,在实际工程实践中,无法将一个设计无限制划分成任意多个区域,并分别映射到FPGA上实现。这是因为由此带来的多芯片间布局布线、时序分析等将会极其复杂,系统性能也会受极大影响。
所以,在硬件仿真和原型验证领域,基本上总是希望FPGA越大越好。
八月下旬,赛灵思发布了世界上最大的FPGA:Virtex UltraScale+ VU19P,见下图。
(图片来自Xilinx)
VU19P上的350亿个晶体管基于台积电的16纳米工艺制造,它拥有目前单器件最高的逻辑密度和I/O数量:超过2000个用户可编程引脚、9百万可编程逻辑单元、224Mb片上内存以及3800个DSP单元。和现有最大的FPGA,基于20 nm的 Virtex UltraScale 440 FPGA相比,VU19P还要再大60%。而作为赛灵思和英特尔的旗舰FPGA,ACAP和Agliex只不过才有两百万左右的可编程逻辑单元。这都足可以看出这款FPGA的巨大。
VU19P基于赛灵思的第三代堆叠硅片互联技术(SSI)制造。老石在之前的文章《3D FPGA技术:延续摩尔定律的黑科技》中曾经详细分析过SSI技术的优缺点。和传统封装技术相比,SSI技术在封装基板和FPGA裸片之间加入了一层无源硅中介层,同时在硅中介层上可以放置多枚FPGA裸片。这些裸片通过在中介层里的硅通孔TSV、微凸块以及大量连线进行相互连接,见下图。
SSI技术的本质是将多个小型硅片组合成一个大型硅片,因此它的主要优点是它能在每代半导体制造工艺早期生产出良率高的大型FPGA器件,加快了产品面世周期,从而能快速抢占市场(尤其是高端市场)。
然而,由于多个小硅片之间存在硬边界,并通过硅中间层进行通信,会使系统性能明显下降,并且对FPGA配置的灵活性也可能会造成很大影响。
话说回来,对于基于FPGA的硬件仿真和原型验证来说,大就是王道。相信这款FPGA在2020年秋季出货后,必将仍是这些领域的主要统治力量之一。
Alveo加速卡家族的新成员:U50
和英特尔的PAC加速卡系列类似,赛灵思拥有名为Alveo的加速卡系列,它于2018年10月首次推出了名为U200和U250的板卡。之前的文章介绍过,这两款全高全长的板卡都基于16纳米的UltraScale器件,主要针对高性能的数据中心应用。老石当时分析过,这两款板卡的标准功耗为100瓦~110瓦,功耗峰值达225W,远超过英特尔PAC的45W~60W。
8月初,赛灵思发布了名为U50的新款Alveo加速卡,这款卡主打小尺寸低功耗,采用了半高半长的设计,功耗75W。此外,它使用了UltraScale+器件,片上集成了8GB HBM。在互联性方面,它提供了PCIe Gen4和缓存一致性协议CCIX的支持。网络连接方面,它有一个QSFP28接口,能支持100Gbps网络带宽。
(图片来自Xilinx)
可以说,与英特尔基于Arria10的小尺寸低功耗的加速卡相比,U50在性能方面基本上碾压对手。但应该注意的是,英特尔Arria10 PAC卡早在2017年10月就发布了,而U50估计至少要到今年九月才能正式面世。
在U50发布新闻稿中提到,U50的OEM认证“正在进行中”。这就正好呼应了老石在上一篇文章中提到的一个问题,那就是开发和生产这种通用型FPGA加速卡并非天大的难事,难点在于上下游产业链的整合,而服务器厂商的认证则是最重要的环节。老石非常期待并好奇哪家OEM会率先完成对U50的厂商认证。
结语
进入九月,开学季已经开始,各大联赛也进入开赛倒计时阶段,暑期所有的休整和积累即将迎来新一轮的检验。作为FPGA领域的头号玩家,赛灵思又一次创造了一个名为“ACAP”的全新竞赛单元。因此赛灵思在新“赛季”的表现值得令人期待。
(注:本文仅代表作者个人观点,与任职单位无关。)
更多芯片与FPGA技术解读,欢迎加入知识星球:“老石谈芯-进阶版”,一个关乎技术与观点的互动社区。